Введение в программирование на Triton: Параллельная модель выполнения: мышление блоками

Переход от последовательного программирования на ЦП к программированию на видеокарте требует смены парадигмы: от итерации по элементам к выполнению по блокам. Больше не воспринимаем данные как поток скаляров, а как совокупности «блоков», запланированных для насыщения пропускной способности аппаратного обеспечения.

1. Ограниченность памятью против вычислительной ограниченности

Ограничение производительности ядра определяется соотношением количества математических операций к количеству обращений к памяти. Сложение векторов часто ограничено памятью потому что оно выполняет только одну операцию сложения на каждые три обращения к памяти (2 загрузки, 1 сохранение). Аппаратное обеспечение тратит больше времени на ожидание данных из ОЗУ, чем на вычисления.

2. Роль параметра BLOCK_SIZE

BLOCK_SIZE определяет степень детализации параллелизма. Если он слишком мал, мы недостаточно используем широкие исполнительные каналы видеокарты. Оптимальный размер гарантирует достаточный объем «работы в полете» для насыщения шины памяти.

3. Скрытие задержек через занятость

Занятость — это количество активных блоков на видеокарте. Хотя это не конечная цель, она позволяет планировщику заменить один блок другим для выполнения вычислений, пока другой ждет получения данных из видеопамяти с высокой задержкой.

4. Использование аппаратных ресурсов

Чтобы максимизировать производительность, необходимо согласовать наш BLOCK_SIZE с правилами объединения памяти архитектуры видеокарты, обеспечивая, чтобы последовательные потоки обращались к последовательным адресам памяти.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For a kernel that adds two vectors ($out = x + y$), what is the most likely bottleneck on modern GPUs?

Arithmetic Throughput

Memory Bandwidth

Shared Memory Latency

QUESTION 2

What is the primary purpose of 'Occupancy' in the GPU execution model?

To ensure every thread runs as fast as possible.

To hide memory latency by keeping work in flight.

To increase the clock speed of the compute units.

To reduce the power consumption of the HBM.

QUESTION 3

Which of the following describes 'Memory-Bound' behavior?

The GPU is waiting for the memory bus to deliver data.

The GPU has exhausted its available VRAM.

The kernel is performing too many complex floating-point operations.

The CPU cannot launch kernels fast enough.

QUESTION 4

What happens if the BLOCK_SIZE is set too small?

The kernel will fail with a memory error.

The GPU fails to utilize its wide SIMD execution lanes.

The memory bandwidth increases significantly.

QUESTION 5

In the logistics warehouse analogy, what represents the 'Blocks'?

The individual items.

The workers.

The organized pallets.

The delivery trucks.